Association, partitionnement et ordination

Serge-Étienne Parent

15 février 2019

Objectifs spécifiques

À la fin de ce chapitre, vous

  • serez en mesure d’effectuer des calculs permettant de mesurer des différence entre des observations, des groupes d’observation ou des variables observées
  • serez en mesure d’effection des analyses de partitionnement hiérarchiques et non-hiérarchiques
  • serez en mesure d’effectuer des calculs d’ordination à l’aide des techniques de réduction d’axe communes: analyse en composante principale, l’analyse de correspondance, l’analyse en coordonnées principales, analyse discriminante linéaire, l’analyse de redondance et l’analyse canonique des correspondances.

Analyse d’associations

Association. Mesure pour quantifier la ressemblance (ou la différence) entre deux objets (échantillons) ou variables (descripteurs) numériques, \({\rm I\!R}\), d’abondance (\({\rm I\!N}\)), d’occurrence (\([0, 1]\)), de catégories, etc.

Mode R et mode Q

Mode R. Association entre variables (e.g. corrélation, covariance).

Mode Q. Association entre observations (e.g. similarité, distance).

Distance vs dissimilarité

La distance est de 0 pour des objets identiques et augmente avec la différence.

La similarité (= 1 - dissimilarité) est de 0 pour les objets n’ayant aucun lien et de 1 pour une association parfaite.

Exemple de matrice de distance

Exemple de données d’abondance

## # A tibble: 4 x 9
##   `Bruant familie… `Citelle à poit… `Colibri à gorg… `Geai bleu`
##              <dbl>            <dbl>            <dbl>       <dbl>
## 1                1                1                0           3
## 2                0                0                1           2
## 3                0                0                0           0
## 4                3                0                0           0
## # … with 5 more variables: `Bruant chanteur` <dbl>, Chardonneret <dbl>,
## #   `Bruant à gorge blanche` <dbl>, `Mésange à tête noire` <dbl>, `Jaseur
## #   boréal` <dbl>

Exemple de données d’occurence

## # A tibble: 4 x 9
##   `Bruant familie… `Citelle à poit… `Colibri à gorg… `Geai bleu`
##              <dbl>            <dbl>            <dbl>       <dbl>
## 1                1                1                0           1
## 2                0                0                1           1
## 3                0                0                0           0
## 4                1                0                0           0
## # … with 5 more variables: `Bruant chanteur` <dbl>, Chardonneret <dbl>,
## #   `Bruant à gorge blanche` <dbl>, `Mésange à tête noire` <dbl>, `Jaseur
## #   boréal` <dbl>

Dissimilarité/distance d’abondance

Dissimilarité de Bray-Curtis

## Warning in if (display_numbers) {: la condition a une longueur > 1 et seul
## le premier élément est utilisé

Dissimilarité/distance d’occurence

Distance du \(\chi^2\)

Distance quantitative

  • Euclidienne: attention à l’échelle
  • Mahalanobis: inclu la covariance
  • Manhattan: attention à l’échelle (gradients orthogonaux)
  • Aitchison: données compositionnelles

Distance euclidienne vs de Mahalanobis vs de Manhattan

Dissimilarité mixtes

Distance de Gower: Jaccard (occurrence et catégories) + Manhattan. –> voir notes de cours.

Quelle métrique choisir?

  1. Type de données: abondance, occurrence, numérique, mixte
  2. Pas de réponse claire:
  • Consulter l’expérience dans la littérature
  • Comparer l’équation mathématique à la question statistique

Partitionnement (1/)

Catégoriser des objets qui n’appartiennent a priori à aucune catégori pour faire en sorte que les différences entre les groupes soient plus grande que les différences entre les objets d’un groupe.

Partitionnement (2/)

  • Critère d’association entre les groupes
  • Nombre de groupe à créer
  • Possibilité qu’une donnée n’appartienne à aucun groupe

Partitionnement (3/)

Deux types:

  • Non-hiérarchique: groupes non ordonnés (nombre de groupes a priori)
  • Hiérarchique: séquence de groupes et de sous-groupes (nombre de groupes a posteriori)

Non-hiérarchique: les k-means (1/)

Pour la plupart des algorithmes, les k-means se basent sur la distance euclidienne (mettre à l’échelle).

Non-hiérarchique: les k-means (2/)

Non-hiérarchique: les k-means (3/)

Non-hiérarchique: dbscan (1/)

dbscan: Density-Based Spatial Clustering of Applications with Noise Les groupes sont composés de zones où l’on retrouve plus de points (zones denses) séparées par des zones de faible densité.

Non-hiérarchique: dbscan (2/)

Non-hiérarchique: dbscan (3/)

Non-hiérarchique: dbscan (4/)

Non-hiérarchique: dbscan (5/)

Hiérarchique: hclust (1/)

Basé sur les matrices d’association, puis sur différentes approches.

  • Single link. Les groupes sont agglomérés sur la base des deux points parmi les groupes, qui sont les plus proches.
  • Complete link. À la différence de la méthode single, on considère comme critère d’agglomération les éléments les plus éloignés de chaque groupe.
  • Agglomération centrale. Il s’agit d’une famille de méthodes basées sur les différences entre les tendances centrales des objets ou des groupes.
  • Ward. L’optimisation vise à minimiser les sommes des carrés par regroupement.

Choix de la meilleure méthode: corrélation cophénétique –> voir les notes de cours.

Hiérarchique: hclust (2/)

Hiérarchique: hclust (2/)

Hiérarchique: hclust (3/)

Hiérarchique: hdbscan (1/)

Idem dbscan, mais la distance critique est successivement augmentée.

Hiérarchique: hdbscan (2/)

Hiérarchique: hdbscan (3/)

Nombre minimum d’objets par groupe de 20 (minPts = 20).

Résultat des partitionnements

Pas toujours facile

Ordination

Réduction d’axe pour mettre de l’ordre dans des données dont le nombre élevé de variables peut amener à des difficultés d’interprétaion.

  • Non-contraignante
  • Contraignante

Ordination non-contraignante

Méthode Distance préservée Variables
Analyse en composantes principales (ACP) Distance euclidienne Données quantitatives, relations linéaires (attention aux double-zéros)
Analyse de correspondance (AC) Distance de \(\chi^2\) Données non-négatives, dimentionnellement homogènes ou binaires, abondance ou occurence
Positionnement multidimensionnel (PoMd) Toute mesure de dissimilarité Données quantitatives, qualitatives nominales/ordinales ou mixtes

Analyse en composantes principales (1/)

Un sommaire d’un espace multidimensionnel en moindres dimensions (généralement 2). Les axes principaux sont orthogonales et construites par combinaisons linéaires des variables.

Analyse en composantes principales: pourquoi faire? (2/)

Explorer la variabilité des points, la redondance des variables, des potentiels regroupements, des valeurs aberrantes, etc.

Analyse en composantes principales: application (3/)

Analyse en composantes principales: les biplots (4/)

Biplot de distance. Ce type de projection permet de visualiser la position des objets entre eux et par rapport aux descripteurs et d’apprécier la contribution des descripteurs pour créer les composantes principales.

Biplot de corrélation. Cette projection permet d’apprécier les corrélations entre les descripteurs. Pour ce faire, les objets et les valeurs propres doivent être transformés.

Analyse en composantes principales: l’intertie (5/)

Analyse de correspondance (AC) (1/)

Réduction pour les données d’abondance ou d’occurence.

Analyse de correspondance (AC) (2/)

Analyse de correspondance (AC) (3/)

Le biplot des espèces, à gauche (scaling = 1), montre la distribution des sites selon les espèces.

Le biplot des sites, à droite (scaling = 2), montre la distribution des recouvrements d’espèces selon les sites.

Positionnement multidimensionnel (PoMd) (1/)

Le PoMd vise à représenter en un nombre limité de dimensions (souvent 2) la distance (ou dissimilarité) qu’ont les objets (ou des variables) les uns par rapport aux autres dans l’espace multidimensionnel.

  • Le PoMd-métrique vise à représenter fidèlement la distance entre les objets ou les variables.
  • Le PoMd-non-métrique vise quant à lui à représenter l’ordre des distances entre les objets ou les variables.

Positionnement multidimensionnel: application (PoMd) (2/)

Positionnement multidimensionnel: application (PoMd) (3/)

Positionnement multidimensionnel: ordiplot (PoMd) (4/)

ordiplot(scores(pcoa), type = 't', cex = 1.2)
text(spec_scores, row.names(spec_scores), col = "red", cex = 0.75)

Quel type d’ordination non contraignante choisir?

Règle du pouce:

  • Lorsque les données sont euclidiennes, l’analyse en composantes principales (ACP)
  • Lorsque la métrique est celle du \(\chi^2\), l’analyse de correspondance (AC).
  • Si la métrique est autre, le positionnement multidimensionel (PoMd) est préférable.

Ordination contraignante

  • Analyse discriminante linéaire
  • Analyse de redondance (RDA)
  • Analyse canonique des correspondances (ACC)

Analyse discriminante linéaire (1/)

Présente la perspective selon laquelle les groupes sont les plus éclatés.

Analyse discriminante linéaire (2/)

Analyse discriminante linéaire (3/)

## Loading required package: ellipse
## 
## Attaching package: 'ellipse'
## The following object is masked from 'package:graphics':
## 
##     pairs
## Loading required package: grid
## Loading required package: plyr
## -------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## -------------------------------------------------------------------------
## 
## Attaching package: 'plyr'
## The following objects are masked from 'package:dplyr':
## 
##     arrange, count, desc, failwith, id, mutate, rename, summarise,
##     summarize
## The following object is masked from 'package:purrr':
## 
##     compact

Analyse de redondance (1/)

Résumer les relations linéaires entre des variables réponse et des variables explicatives.

Analyse de redondance (2/)

Analyse de redondance (3/)

Triplot de distance. Les angles entre les variables explicatives représentent leur corrélation (non pas les angles entre variables réponse), et les distances entre les objets indiquent leurs distances euclidiennes.

Triplot de corrélation. Les angles entre les variables représentent leurs corrélation, que les variables soient réponse ou explicative, ou entre variables réponses et variables explicatives. Les distances entre les objets sur le triplot ne sont pas des approximation de leur distance euclidienne.

Analyse de redondance: test de permutation (4/)

## Permutation test for rda under reduced model
## Terms added sequentially (first to last)
## Permutation: free
## Number of permutations: 999
## 
## Model: rda(formula = varespec ~ N + P + K + Ca + Mg + S + Al + Fe + Mn + Zn + Mo + Baresoil + Humdepth + pH, data = varechem, scale = FALSE)
##          Df Variance      F Pr(>F)   
## N         1   193.72 4.7667  0.011 * 
## P         1   181.88 4.4753  0.017 * 
## K         1    59.66 1.4681  0.242   
## Ca        1    80.83 1.9890  0.124   
## Mg        1    19.68 0.4842  0.721   
## S         1   241.87 5.9515  0.003 **
## Al        1   173.36 4.2657  0.013 * 
## Fe        1    47.25 1.1626  0.343   
## Mn        1    22.58 0.5555  0.659   
## Zn        1    33.69 0.8291  0.502   
## Mo        1   169.55 4.1719  0.018 * 
## Baresoil  1    87.99 2.1650  0.114   
## Humdepth  1   106.06 2.6097  0.081 . 
## pH        1    41.75 1.0273  0.388   
## Residual  9   365.77                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analyse canonique des correspondances (1/)

Idem RDA, mais pour des données d’abondance et d’occurence.